• 検索結果がありません。

統計モデルの数理 |

N/A
N/A
Protected

Academic year: 2021

シェア "統計モデルの数理 |"

Copied!
35
0
0

読み込み中.... (全文を見る)

全文

(1)

情報・システム工学概論

統計モデルの数理

第1回:統計モデルの考え方

駒木 文保 工学部 計数工学科

2018

10

29

(2)

物理モデルと統計モデル

(広い意味の)物理モデル

ニュートンの運動方程式,マクスウェルの方程式,

シュレディンガー方程式

,

回路,制御,

ロトカ・ヴォルテラ方程式,ホジキン・ハックスレー方 程式,...

微分方程式を用いたモデルが多い 統計モデル

不確実な現象のモデリング 比較的新しいパラダイム

統計的モデリングの考え方の発展については,例えば

(日本語訳の文庫本)などが参考になる.

(3)

簡単な統計モデル1 2項分布モデル

θ:

コイン投げで表の出る確率

x:

コインを

N

回 投げたとき表の出る回数

(

確率変数

) x

のしたがう確率分布

:

2項分布

Bin(N, θ)

P (x; θ) = ( N

x )

θ

x

(1 θ)

Nx

.

[

3[ | lj

0 1 2

0.00.250.50

コインの表の出る回数の確率

P(x; θ), N = 2, θ = 1/2

(4)

ゆがんでいないコインであれば,

θ =

12

コインの歪んでいるとき,

θ [0, 1]

の値は正確にはわからない.

θ:

パラメータ

未知であることを強調して,未知パラメータともいう 2項分布

Bin(N, θ)

全体

:

パラメータ

θ

をもつ2項分布モデル パラメータを変えて得られる確率分布全体を(パラメトリック な)統計モデルと呼ぶ.

x

が観測されたとき,

θ

についてどのようなことがいえるのか.

(5)

簡単な統計モデル2 正規分布モデル

正規分布

N(0, 1)

0

は平均

, 1

は分散)

x

p(x)

-4 -2 0 2 4

0.00.20.4

正規分布

N(0, 1)

の確率密度関数.

(6)

平均

µ,

分散

σ

2 の正規分布

N(µ, σ

2

)

の確率密度関数

p(y ; µ, σ

2

) = 1

2πσ

2

exp {

1

2

(y µ)

2

}

.

最も基本的で重要な分布 中心極限定理

人間の身長の分布は正規分布でよく近似できる

(7)

いろいろな正規分布

x

p(x)

-5 0 5 10 15

0.0 0.4 0.8

N(0,1)

N(5,4)

N(10,0.25)

N(0, 1), N(5, 4), N(10, 0.25)

(8)

µ, σ:

パラメータ

正規分布

N(µ, σ

2

)

全体

:

パラメータ

µ, σ

2 をもつ統計モデル 物体の長さをある装置を使って測定

µ

0

:

物体の真の長さ

ε:

装置の測定誤差

測定の結果得られる観測値

µ

0

+ ε

測定誤差

ε

の分布

N(0, σ

02

)

(9)

測定の結果得られる観測値の分布:

正規分布

N(µ

0

, σ

20

)

(真の分布)

実際に測定を行う人は

µ

0 の値を知らない.

装置の性能も分からない場合には

σ

20 の値も未知.

正規分布モデル

N(µ, σ

2

)

を仮定して,

µ

0

σ

02 を推定 物体の長さと装置の測定誤差がわかる.

(10)

回帰モデル

データ:

N

人についての身長と体重を組にした測定値

.

データをもとにして,身長から体重を予測したい.

回帰モデルの応用は非常に広い.

一般的な傾向として身長の高い人ほど体重も重い傾向.

身長を

x

,体重を

y

として

y = bx + c + ε, ε N(0, σ

2

)

の直線状の関係を仮定してデータを解析

.

ε

は平均

0,

分散

σ

2 の正規分布

N(0, σ

2

)

にしたがう確率変数.

ε

により,同じ身長のひとでも体重が違うことをモデル化できる.

(11)

未知パラメータは

b, c , σ

b > 0

ならば,身長が増えると体重も増える傾向をもつ.

データから

b c σ

の推定値

b, ˆ ˆ c , ˆ σ

を得ることにより,身長と体 重の関係式

y = ˆ bx + ˆ c + ε, ε N(0, ˆ σ

2

)

を利用して,身長から体重が予測できる.

(12)

回帰モデル.身長と体重の仮想的なデータのプロットと,データ に当てはめた直線

y = ˆ bx + ˆ c

(13)

マルコフ連鎖モデル

簡単のために,天気に晴と雨しか無いと仮定

.

n

日目が晴であれば

X

n

= 0,

雨であれば

X

n

= 1

と表す.

確率変数の列

X

0

, X

1

, X

2

, . . .

を考える.

p:

晴れた日の翌日に晴れる確率

,

(晴れた日の翌日に雨が降る確率は

1 p

),

q:

雨が降った日の翌日に晴れる確率

,

(雨が降った日の翌日に雨が降る確率は

1 q

マルコフ連鎖と呼ばれるモデルのクラスの簡単な例.

p, q:

モデルのパラメータ.

過去のデータから

p

q

の推定値

p, ˆ ˆ q

を構成して,今日の天気 から明日の天気が予測できる.

(14)

マルコフ連鎖モデルを一般化した隠れマルコフモデルは音声認識 やアミノ酸配列・塩基配列の解析(遺伝子解析)等で広く利用さ れる.

マルコフ連鎖は1次元の構造をもっている.これを多次元に拡張 したマルコフ場モデルは,画像解析や空間統計学などで利用さ れる.

x

0

x

1

x

2

x

N-1

x

N

マルコフ連鎖

(15)

ベイジアンネットワーク

マルコフ連鎖は1次元の構造をもつ.

ベイジアンネットワーク,グラフィカルモデル,

確率ニューラルネットワーク

多くの確率変数が影響を及ぼし合うことを考慮したモデル

(16)

簡単な例 (Cowell , 1999)

計算機が動作しないときに考えられる2つの原因

停電

or

計算機故障

二つとも原因として考えらえるが,室内の照明も点灯しなければ,

原因が停電である可能性が高くなる.

X

1

:

停電であるかないか

X

2

:

計算機が故障しているかいないか

X

3

:

照明が点灯するかしないか

X

4

:

計算機が動作するかしないか それぞれ

1

0

かで表す.

確率変数

X

1

, X

2

, X

3

, X

4 が互いに影響を及ぼしあっている程度を 数値化して,パラメトリックな統計モデルを構築.

(17)

このモデルを利用することにより,計算機の故障の原因に関する 推論が自動的にできる.

このような統計モデルは,人工知能,パターン認識,データ圧縮,

符号理論などの分野で利用される.

ベイジアンネットワーク

(18)

統計モデルのパラメータ推定

統計モデルのうちで最も簡単な正規分布モデル

N(µ, τ )

を考える.

以下,

σ

2

τ

と書き換える.

真の分布

p

0

(y)

にしたがうデータ

x

1

, x

2

, . . . , x

n が得られたとき,

データを基にして,なるべく真のパラメータ

µ

0

, τ

0 に近い推定値

ˆ

µ, τ ˆ

を得たい.

p

0

(y )

をよく近似する

p(y; ˆ µ, τ ˆ )

をデータに基づいて選ぶことは,

パラメータ推定と呼ばれる重要な問題.

最尤推定

:

さまざまな統計モデルに応用できるパラメータ推定法

(19)

Kullback–Leibler ダイバージェンス

推定の良さを評価するためには真の分布の確率密度関数

p

0

(y)

推定した確率密度関数

p (y; ˆ µ, ˆ τ )

との近さを評価する必要がある.

定義.確率密度関数

p(y)

から

q(y)

への

Kullback–Leibler

ダイ バージェンス(相対エントロピーとも呼ばれる)

D(p, q) =

p(y) log p(y) q(y) dy

p(y), q(y)

がどのくらい離れているかを表す.

統計学や情報理論で本質的な役割を果たす

.

重要

!

(20)

.

正規分布

N(µ

1

, τ

1

)

から

N(µ

2

, τ

2

)

への

Kullback-Leibler

ダイ バージェンス

D(p(y ; µ

1

, τ

1

), p(y; µ

2

, τ

2

)) = 1 2

{( τ

1

τ

2

log τ

1

τ

2

1 )

+ 1 τ

2

1

µ

2

)

2

}

.

(21)

Kullback-Leibler

ダイバージェンスは非負の量で,

p = q

のときの

0

になるという距離に似た性質を持つ.

距離の公理は満たさない.

D(p, q) = D(q, p)

は成立しない.

真の分布

p

0

(y)

から推定した分布

p (y; ˆ µ, ˆ τ )

への

Kullback-Leibler

ダイバージェンス

D(p

0

(y), p(y ; ˆ µ, τ ˆ ))

を最小にする

µ, ˆ ˆ τ

を選ぶことができれば良い.

p

0

(y )

は未知なので工夫が必要.

(22)

真の分布

p

0

(y)

からモデルに属する分布

p(y; µ, τ )

への

Kullback-Leibler

ダイバージェンスを

D(p

0

(y), p(y; µ, τ )) =

p

0

(y) log p

0

(y) p(y; µ, τ ) dy

=

p

0

(y) log p

0

(y)dy

p

0

(y) log p(y; µ, τ )dy

のように変形.

第1項はパラメータの値によらない項なので,

D(p

0

, p (y; µ, τ ))

を最小化することは

p

0

(y) log p(y; µ, τ )dy

を最大化することに帰着.

p

0

(y) log p(y; µ, τ )dy

log p(y ; µ, τ )

p

0 に関する期待値.

(23)

真の分布

p

0

(y)

はわからないため,

p

0 に関する期待値をデータ,

x

1

, x

2

, . . . , x

n に対する平均

1 n

n i=1

log p(x

i

; µ, τ )

におきかえる.

この量は対数尤度関数(パラメータ

µ, τ

の関数とみなす)と呼ば れるものになっている.

これを最大化する

µ, τ

の値

µ, ˆ ˆ τ

が 最尤推定量.

(24)

パラメータ

µ, τ

の最尤推定量

µ, ˆ τ ˆ

の具体的な形は

ˆ

µ =

n

i=1

x

i

n , τ ˆ =

n

i=1

(x

i

µ) ˆ

2

n .

最尤推定はさまざまなモデルに対して汎用的に用いることのでき る推定法.

複雑な統計モデルに対して,最尤推定量を求めるためには計算機 を利用した最適化手法の利用が必要.

(25)

モデル選択

統計的モデルを利用したデータ解析を行う場合,最初からひとつ のモデルが特定できていることは少ない.

いくつかのモデルの候補のうちから一番よいと思われるモデルを 選択するのが普通.

どのようにしてモデルを選択するのかは統計的手法を利用する際 の重要な問題.

データの特性を忠実に表現するにはある程度複雑なモデルを 利用することが必要.

あまり複雑なモデルを採用するとパラメータの推定の精度が おちる.

(26)

赤池情報量規準 (Akaike’s Information Criterion, AIC)

データに基づいて適切なモデルを選択するための規準 定義

AIC = −2 ×

モデルの最大対数尤度

+ 2 ×

モデルのパラメータ数

.

最大対数尤度が大きければモデルがデータに良く当てはまってい ることになる.

モデルを複雑にすると第1項は小さくなる(最大対数尤度は 大きくなる).

モデルを複雑にするとモデルのパラメータ数が大きくなる.

AICを小さくするモデルを選ぶことにより,データに対するあ てはまりの良さとモデルの複雑さとのバランスをとる.

(27)

google ロゴ (2017 11 5 )

Hirotugu Akaike’s 90th Birthday

https://www.google.com/doodles/hirotugu-akaikes-90th-birthday

(28)

例.多項式回帰モデル

y

i

, i = 1, 2, . . . , N:

正規分布

N(f (x

i

), σ

2

)

にしたがう観測値

. f (x):

なめらかな関数で

σ

2 とともに未知.

k

次多項式回帰モデル

y

i

= a

0

+ a

1

x

i

+ a

2

x

i2

+ · · · + a

k

x

ik

+ ε

i

, ε

i

i.i.d. N(0, σ

2

)

を仮定して解析する.

(29)

f (x)

は高次の多項式を使えば原理的にはいくらでも精密に近似で きる.

高次の多項式を使うと推定するパラメータ

a

0

, a

1

, . . . , a

k

, σ

2 の数 が多くなり,観測値の数が限られているので,パラメータ推定の 精度が悪くなる

f (x)

の近似は必要以上に高次のモデルを利用するとかえって 悪くなる.

数値例:

f (x) = sin x, σ = 0.3

f (x)

1 5

次の多項式モデルを用いて推定.

(30)
(31)

実線:真の

f (x),

点線:

2

次式を用いた推定結果

(32)
(33)

実線:真の

f (x),

点線:

4

次式を用いた推定結果

(34)
(35)

参考文献

Salsburg, D. S. (2010)

統計学を拓いた異才たち,竹内・熊谷訳,

日本経済新聞出版社

Cowell, R. G., Dawid, A. P., Lauritzen, S. L., Spiegelhalter, D. J. (1999) Probabilistic Networks and Expert Systems, New York: Springer-Verlag.

坂元慶行・石黒真木夫・北川源四郎

(1983)

情報量統計学,共立 出版.

小西貞則,北川源四郎

(2004).

情報量規準,朝倉書店

.

参照

関連したドキュメント

• “ モデル(模型) ” というからには、それは「本物ではない」というこ

R については多くの情報が RjpWiki などインターネットで入手で きる.また,竹村

非常に小さな量である。このモデルにおいて変動係

次元たとなる.この場合がAICであり,エ2最小化の 目的のために,このAICを最大化するモデルを選択 することが提唱されている【1】.

数学的モデル (1)村井・中田モデル [6J 3

REDO 圧縮は Oracle Database 11g の Advanced Compression Option によって提供 される機能です。REDO 圧縮を有効にすると、Oracle Data Guard の REDO 転送時

一般に n-gram による言語モデルでは 1 つの n-gram 統計を学習する.タスクがいくつかのサブ

本論文では,文献 10